Prática Machine Learning - CUNEF

Alumno: Amadeo Gustavo Ancarani

Definición del Script: 02_Tranformation_data_test

Este es el procedimiento que seguirán nuevos datos observados.

Además, se generará al final del mismo una función acumulando todo el procedimiento para guardarla en un Pipeline. Esto nos resultará sumamente útil para el momento de puesta en producción del proyecto.

Importo librerias

Importo el dataset

Analisis generales de la tabla

Dimensión

Debemos no considerar registros duplicados ya que pueden modificar nuestro analisis

Exploración de la variable objetivo y tratamiento

Genero la variable a estimar (y)

Observar cuantos valores missing (sin codificar)

La variable 'C_VEHS' cuanta con la codificación para valores faltantes, rellenamos estos missing con el valor correspondiente

Tansformaciones de formato de las variables exógenas

Variables Numericas

Generaré variables dummies ya que al transformar a estas variables a numéricas, tanto las observaciones N comos las U se tranformarán en NA y no tienen el mismo tratamiento dada la diferencia en las distribuciones de la variable objetivo en cada caso particular

Análisis de valores faltantes en variables categóricas

V_TYPE

Para la variable 'V_TYPE', las observaciones tipo 'UU' y 'QQ' son tan pocas, que las filtraremos del dataset

P_PSN

Para la variable 'V_TYPE', las observaciones tipo 'NN', 'UU' y 'QQ' son tan pocas, que las consideraremos como una categoría única, ya que para todas estas observaciones, tenemos un aumento de la probabilidad de ser fallecido en caso de tener estas categorías para 'V_TYPE'

P_SAFE

Como en los casos 'UU', 'NN' y 'QQ' observamos la misma tendencia, es decir, una mayor probabilidad de fallecer con estas observaciones, decido agruparlas en una unica variable

P_USER

P_SEX

Se filtrarán las observaiones tipo 'N' y se mantendrán a las observaciones 'U'

V_YEAR

Lo que interesa en lugar de saber el año de fabricación de los autos, es la antigüedad que los mismos tenían en la fecha del accidente

Observo valores negativos en la antigüedad de los autos, valores que serán filtrados en el dataset

C_RCFG

C_WTHR

C_RSUR

Agruparemos a las observaciones 9, 8, 7 y 6 en una adiocional llamada 'O'

Tratamiento de Valores Faltantes para variables numericas

ENCODING

Tranformamos a las horas, los dias de la semana y los meses en dos variables tomando el seno y el coseno de la variable, para captar el movimiento cíclico de la hora, ya que después de las 24 comienza un ciclo desde 0 a 24 nuevamente. Lo mismo con el resto de las variables

Exporto el dataset resultante

Creamos la función para el Pipeline

Verificamos si el resultado de la función es igual al proceso anterior